以创新为世界提供最强算力

#以创新为世界提供最强算力| 来源: 网络整理| 查看: 265

计算产业正迎来下一个黄金时代，华为在通用计算和AI计算领域坚持战略投入，持续创新，通过解决世界级计算技术难题，为世界提供最强算力。

通用计算最强算力应具备三个基本特征

热力推动了第一次工业革命，实现了农耕文明向工业文明的进步。电力推动了第二次工业革命，极大的提升了生产效率，人类社会步入了电气时代。在以计算机及信息技术为标志的第三次工业革命，和以人工智能为标志的第四次工业革命中，算力正发挥着越来越重要的作用。未来社会将进入智能世界，人工智能无处不在，无人驾驶进入千家万户，智能机器人、智能家居深刻改变人类的生产与生活，而这一切智能应用的背后需要强大的算力。

智能世界需要最强算力的产品，在通用计算领域，最强算力的产品应该具备三个基本特征：多核高并发是普遍需求，因此单个处理器64核应该是起步条件；实时大数据分析、分布式数据库等场景需要与内存进行大量的数据交换，具备8内存通道是必然选择；CPU与加速器之间的协同，需要高带宽低时延的I/O，总线能力升级到PCIe 4.0是当务之急。

但这还不能完全满足客户对最强算力产品的需求。当前计算架构正从集中式向分布式演进，仅仅CPU有最强算力还不够，还需要具备多合一SoC 、xPU高速互联实现从CPU到服务器的最强算力，以及通过100GE高速I/O实现从单机到集群的最强算力。

汽车跑得快不快，关键要看发动机是否强劲。最强算力的产品必须要有最强劲的处理器。鲲鹏处理器，集成了64个物理核，SPECint评估跑分高达930分，相比业界主流处理器性能提升了25%。鲲鹏处理器除了性能强劲，还采用了多合一的SoC芯片架构，它不仅仅是一颗CPU，还集成了RoCE网卡、SAS控制器、桥片等，单颗处理器实现了4颗芯片的功能，以一当四，可有效提升主板的集成度，使服务器的体积更小，算力密度更高、功耗更低。

华为研发的Cache一致性总线HCCS，可以实现CPU和CPU之间的高速互联，通信速率高达每秒30GT，是业界主流CPU互联速率的2倍多。通过多CPU互联，我们率先实现256个物理核的NUMA架构，从而推出业界首款兼容ARM架构的最强算力4路服务器。异构计算的兴起，使得CPU与NPU之间的互联协议也很关键。华为创新性地将HCCS同样应用于CPU与NPU的高速互联，构建了xPU间的统一Cache一致性架构，xPU之间可以进行直接内存访问，实现高速数据交互。同时基于此架构，可实现通用算力和AI算力的灵活组合，打造最强算力的异构计算服务器。

当前处理器一般通过与外置网卡配合为服务器提供10GE、25GE的接口，在分布式架构下，要完成一个高算力的集群组网，更需要高I/O的吞吐能力。鲲鹏处理器是业界首个推出内置直出100GE网络能力的通用处理器，让100GE成为服务器的标准配置。从处理器到服务器，扩展到整机柜和计算集群，实现全100GE的高速网络互联，引领服务器迈入100GE时代，构建最强算力的集群。

最强算力产品需要支持多合一SoC芯片架构、xPU高速互联和100GE高速I/O。TaiShan系列服务器是当前面向大数据、分布式存储、数据库、HPC、原生应用等场景，兼容ARM架构的最强算力服务器。华为提供了存储密集型、计算密集型、边缘计算等多款服务器产品，满足客户从数据中心到边缘的多场景部署需求。

鲲鹏主板全面开放

鲲鹏主板，搭载两颗鲲鹏处理器，128个物理核，内置100GE RoCE；32个内存插槽，支持PCIe 4.0；合作伙伴可以基于这块鲲鹏主板，开发出多种形态的计算产品。

华为在硬件方面有30多年的研发与制造经验，各种硬件主板出货量累计超过10亿块。鲲鹏主板具备业界领先的56G高速SerDes能力，主板性能提升25%；信号误码率低于10的负12次方，故障率比业界平均水平低15%；我们通过创新的DEMT动态节能技术，可以实现能效比领先业界15%以上。合作伙伴基于鲲鹏主板开发的计算产品，具备高性能，高可靠，高能效的优势，可以100%释放整机算力。

众人拾柴火焰高，华为优先支持合作伙伴，基于鲲鹏主板开发更多的最强算力产品，给客户更多、更好的选择。鲲鹏主板内置了BMC芯片和BIOS软件，我们将开放主板接口规范和设备管理规范。为了提升整机设计效率和质量，华为将硬件工程能力开放，提供机箱、散热、供电、背板等参考设计指南。此外，我们提供内存、硬盘、网卡、操作系统等软硬件兼容性列表，解决软硬件基础生态配套需求。合作伙伴可以基于鲲鹏主板和整机参考设计，快速开发出自有品牌的服务器和台式机产品。

基于昇腾910的最强AI算力

相比于推理，训练芯片的能力更能体现AI的最强算力。华为昇腾910训练芯片基于达芬奇架构，内置了32个3D Cube计算引擎，单引擎能够在一个时钟周期内完成4096次乘加运算，算力达到256T FLOPS。基于毫秒级梯度同步及On-Device处理，实现多芯片并行训练。AI服务器搭载8颗昇腾910芯片，算力可达到2P FLOPS。通过Scale-Out扩展可组成大规模的AI集群，结合芯片-服务器-集群通信无阻塞网络技术，集群算力高达1024P FLOPS，将模型训练时间，从数月数周数天，缩短至秒级。

2019年8月，华为发布了业界最强算力的AI训练处理器昇腾910。9月的华为全联接大会上，华为发布了两款基于昇腾910的Atlas新产品：算力最强的AI训练卡Atlas 300 与训练服务器Atlas 800。

Atlas 300，是业界最强算力的AI训练卡。可提供256T FLOPS的算力，是当前业界主流训练卡的2倍，每秒训练的图片数量从965张提升到1802张。支持100G RoCE直出高速接口，可实现梯度参数和数据集并行传输，最高可降低70%的梯度同步时延，支撑集群训练时间缩短到秒级。

Atlas 800，是业界算力最强的AI训练服务器。Atlas 800在仅仅4U空间里集成了8颗昇腾910 AI处理器，可提供2P FLOPS的超强算力，算力密度是业界同类产品的2.5倍。Atlas 800仅重75千克，不到业界同类产品的一半，内置32个硬件解码器，每秒可完成16384张1080P图片解码，是业界主流产品处理能力的25倍，而且可以与训练并行处理。支持风冷和液冷两种散热方式，满足企业数据中心和集群高密部署两类场景。单机能效是业界同类产品的1.8倍。在华为松山湖的数据中心中，我们已经部署了全液冷的Atlas 800，单机柜的散热能力高达5万瓦。

Atlas 900，全球最快的AI训练集群，是一个可扩展的AI集群架构，由数千颗昇腾910处理器组成，在ResNet-50测试中，以59.8秒的成绩夺得全球第一，在同等精度下比第2名快15%。Atlas 900集群的强大算力，可广泛应用于科学研究与商业创新，比如天文探索、石油勘探等领域。

基于昇腾910和昇腾310 AI处理器，我们完成了Atlas全系列产品布局，面向训练和推理都提供了超强算力，实现全场景部署。基于统一的达芬奇架构和全场景AI计算框架，实现云边端协同，加速全行业的智能化再造。

2019年，华为和南方电网深圳供电局启动了基于Atlas的智能巡检联合创新。深圳供电局曾经分享过：一名普通线路工人一生巡检走过的山路可绕赤道一圈。山路崎岖，杆塔高耸，工作强度极大，通过基于Atlas的智能无人巡检方案，使得南方电网可以彻底摆脱“一车两人三水壶”的传统巡检模式，实现实时预警，准确上报，更安全，更高效。我们希望更多的行业能够通过技术创新，让生命更安全，让社会更美好。

【本文地址】

以创新为世界提供最强算力

以创新为世界提供最强算力

今日新闻

推荐新闻